期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 适应文档检索的半监督多样本排序学习算法
何海江 龙跃进
计算机应用    2011, 31 (11): 3108-3111.   DOI: 10.3724/SP.J.1087.2011.03108
摘要739)      PDF (621KB)(416)    收藏
针对标记训练集不足的问题,提出了一种协同训练的多样本排序学习算法,从无标签数据挖掘隐含的排序信息。算法使用了两类多样本排序学习机,从当前已有的标记数据集分别构造两个不同的排序函数。相应地,每一个无标签查询都有两个不同的文档排列,由似然损失来计算这两个排列的相似性,为那些文档排列相似度低的查询贴上标签,使两个多样本排序学习机新增了训练数据。在排序学习公开数据集LETOR上的实验结果证实,协同训练的排序算法很有效。另外,还讨论了标注比例对算法的影响。
相关文章 | 多维度评价
2. 集成最近邻规则的半监督顺序回归算法
何海江 何文德 刘华富
计算机应用    2010, 30 (4): 1022-1025.  
摘要1511)      PDF (711KB)(1530)    收藏
监督型顺序回归算法需要足够多的有标签样本,而在实践中,标注样本的序数耗时耗力,甚至难以完成。为此,提出一种集成最近邻规则的半监督顺序回归算法。基于最近邻,针对每个有标签样本,在无标签数据集选择与其最近似的若干样本赋以相同序数;再由监督型顺序回归算法训练有标签样本和新标注样本。多个数据集的实验结果显示,该方法能显著改善顺序回归性能。另外,引入折扣因子λ评估新标注样本的可信度,并讨论了λ和有标签数据集大小对方法的影响。
相关文章 | 多维度评价
3. 由贪心策略构造Chebyshev多项式概要
李方圆 何海江
计算机应用    2009, 29 (08): 2253-2253.  
摘要1148)      PDF (563KB)(1166)    收藏
基于Chebyshev多项式的概要能有效估计数据库关系属性的频度分布。然而,从M个Chebyshev系数选择最近似原始频度分布的N(N>M)个系数,是NP难问题。依据贪心策略,提出了三种概要构造算法,精度最高的一个称为GreedyB。 GreedyB先找出2N个绝对值最大的系数,再由贪心策略剔除多余的N个。在模拟数据序列和实际数据序列的实验数据表明,GreedyB尽管时间复杂度要高,但L1、L2、L∞等误差显著较小。
相关文章 | 多维度评价
4. 代价与样本相关的简约核支持向量机
何海江
计算机应用   
摘要1695)      PDF (935KB)(1429)    收藏
针对机器学习领域中误分类代价与样本相关的情况,提出一种以最小化总代价为目标的样本相关代价敏感的简约核支持向量机sd2sSVM。首先,在GSVM框架下,将优化目标转换为无约束数学规划问题,再引入分段多项式平滑函数逼近正号函数,使用Newton-YUAN方法求无约束问题的唯一最优解,最后引入简约核提高解非线性问题的效率。实验结果表明,与传统的样本相关代价敏感支持向量机相比,sd2sSVM的分类精度、误分类代价相当,但训练时间、预测时间则更短。另外,讨论了参数C对sd2sSVM分类性能的影响。
相关文章 | 多维度评价